💽 一、数据存储知识体系整体结构
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
| 数据存储知识体系 ├── 存储分类维度 │ ├── 按数据类型:结构化 / 半结构化 / 非结构化 │ ├── 按访问模型:块存储 / 文件存储 / 对象存储 │ ├── 按部署方式:本地存储 / 分布式存储 / 云存储 │ ├── 按使用场景:缓存 / OLTP / OLAP / 日志 / 元数据等 │ ├── 存储系统类型 │ ├── 关系型数据库(RDBMS) │ ├── NoSQL(KV、文档、列、图) │ ├── 时序数据库 │ ├── 搜索引擎(如 ElasticSearch) │ ├── 分布式文件系统(如 HDFS) │ ├── 对象存储(如 S3, MinIO) │ ├── 缓存系统(如 Redis、Memcached) │ ├── 存储底层原理 │ ├── 数据结构:B+树 / LSM-Tree / 哈希表 │ ├── 存储引擎:InnoDB / RocksDB / LevelDB │ ├── 日志与 WAL(预写式日志) │ ├── 索引机制:主索引 / 二级索引 / 倒排索引 │ ├── 压缩与编码:列存压缩 / 字典编码 / 布隆过滤器 │ ├── 分布式存储原理 │ ├── 分区与分片(Sharding) │ ├── 数据副本与容错 │ ├── 一致性协议:Paxos / Raft │ ├── CAP 理论 / BASE 理论 │ ├── 一致性模型:强一致 / 最终一致 / 线性一致性 │ ├── 存储架构设计 │ ├── 热数据与冷数据分层 │ ├── 存储+缓存层设计(缓存预热、淘汰、穿透) │ ├── 多活 / 灾备 / 容灾 / 容错机制 │ ├── 数据备份与恢复(备份策略、增量快照) │ ├── 存储与计算分离架构(如 Lakehouse) │ ├── 数据库选型与应用 │ ├── OLTP vs OLAP 对比 │ ├── 不同场景数据库选型(交易 / 实时 / 搜索 / 监控) │ ├── 数据分层与冷热数据管理 │ ├── 多种存储融合应用(HTAP、Lambda 架构) │ ├── 性能调优与监控 │ ├── 索引优化 / 查询优化 │ ├── 并发控制(锁 / MVCC) │ ├── I/O 优化(顺序写 / 页缓存) │ ├── 存储指标监控(QPS、延迟、写放大、磁盘使用率) │ └── 数据安全与合规 ├── 数据加密 / 访问控制 ├── 数据脱敏 / 审计日志 ├── 合规要求(GDPR / 数据本地化)
|
🧩 二、常见存储类型对比表
类型 |
代表产品 |
适用场景 |
特点 |
RDBMS |
MySQL, PostgreSQL |
结构化数据,事务强一致性 |
支持 SQL,事务能力强 |
KV 存储 |
Redis, RocksDB |
缓存、Session、高并发请求 |
读写快,结构简单 |
文档存储 |
MongoDB, Couchbase |
半结构化数据、灵活模型 |
JSON 文档结构,自由度高 |
列式存储 |
ClickHouse, Apache Doris |
OLAP 分析场景 |
压缩比高,查询快,适合聚合分析 |
图数据库 |
Neo4j, Dgraph |
社交网络、图关系分析 |
关系建模能力强,路径查询高效 |
对象存储 |
Amazon S3, MinIO |
文件存储、静态资源 |
存储大文件,低成本,易扩展 |
文件系统 |
HDFS, CephFS |
大数据分析 |
高吞吐并行访问,适合批处理 |
时序数据库 |
InfluxDB, Prometheus |
监控、IoT、时间序列数据 |
持续写入快,聚合分析方便 |
搜索引擎 |
Elasticsearch, Solr |
日志、全文检索 |
倒排索引支持模糊查询,高可扩展性 |
🔧 三、学习路径推荐(由浅入深)
基础知识:
数据结构(B树、哈希表)
操作系统:文件系统、磁盘结构
SQL 和关系型数据库的使用
缓存原理和使用(Redis)
数据库实现原理:
存储引擎(InnoDB、LSM Tree、WAL)
索引机制和优化
并发控制(MVCC、锁机制)
分库分表、分片策略
分布式存储原理:
一致性协议(Raft、Paxos)
CAP、BASE、数据副本机制
分布式事务、数据同步
存储架构设计实战:
热点数据 + 缓存 + 主存架构
多活容灾架构设计
Lakehouse、HTAP 架构理解与构建
应用层实践:
构建高可用数据库集群(如 MySQL 主从、Redis Sentinel、Elasticsearch 集群)
使用对象存储构建数据湖
结合 Kafka + OLAP 构建实时数仓